智能论文笔记

基于K-Nearest的邻居（KNN）的深度学习方法，由于其简单性和几何解释性，已应用于许多应用。但是，尚未对基于KNN的分类模型的鲁棒性进行彻底探索，而KNN攻击策略欠发达。在本文中，我们提出了对敌对的软knn（询问）损失，以设计更有效的KNN攻击策略，并为他们提供更好的防御能力。我们的问损失方法有两个优势。首先，与以前的作品中提出的目标相比，问问损失可以更好地近似KNN分类错误的可能性。其次，询问损失是可以解释的：它保留了扰动输入和课堂参考数据之间的相互信息。我们使用询问损失来生成一种名为Ask-Attack（Ask-ATK）的新颖攻击方法，该方法显示出相对于先前的KNN攻击，显示出了卓越的攻击效率和准确性降解。然后，基于Ask-ATK，我们得出了一个Ask \ supessline {def} ense（ask-def）方法，该方法优化了Ask-ATK引起的最坏情况训练损失。 CIFAR-10（IMAGENET）上的实验表明，（i）Ask-Atk成就$ \ geq 13 \％$（$ \ geq 13 \％$）提高了先前的KNN攻击的攻击成功率，以及（ii）ask-def $ \ geq 6.9 \％$（$ \ geq 3.5 \％$）在稳健性改善方面胜过常规的对抗训练方法。

translated by 谷歌翻译

Large language models have recently attracted significant attention due to their impressive performance on a variety of tasks. ChatGPT developed by OpenAI is one such implementation of a large, pre-trained language model that has gained immense popularity among early adopters, where certain users go to the extent of characterizing it as a disruptive technology in many domains. Understanding such early adopters' sentiments is important because it can provide insights into the potential success or failure of the technology, as well as its strengths and weaknesses. In this paper, we conduct a mixed-method study using 10,732 tweets from early ChatGPT users. We first use topic modelling to identify the main topics and then perform an in-depth qualitative sentiment analysis of each topic. Our results show that the majority of the early adopters have expressed overwhelmingly positive sentiments related to topics such as Disruptions to software development, Entertainment and exercising creativity. Only a limited percentage of users expressed concerns about issues such as the potential for misuse of ChatGPT, especially regarding topics such as Impact on educational aspects. We discuss these findings by providing specific examples for each topic and then detail implications related to addressing these concerns for both researchers and users.

translated by 谷歌翻译

侧重于查询的摘要（QFS）需要生成使用一组相关文档的查询给出文本摘要。但是，在实践中，此类相关文件不易获得，但应首先从文档收集中检索。因此，我们展示了如何扩展此任务以使其更加逼真。因此，任务设置也类似于开放式域问题应答任务的设置，其中答案是顶部检索到的文档的摘要。要解决此扩展任务，我们将通过文本生成组合通过文本生成来产生给定输入查询的检索段落的摘要。我们展示了第一个对拟议任务的评估结果，并表明一些样本足以通过检索的通道进行微调的大型生成模型。

translated by 谷歌翻译

Large-Scale Data Mining of Rapid Residue Detection Assay Data From HTML and PDF Documents: Improving Data Access and Visualization for Veterinarians

Majid Jaberi-Douraki , Soudabeh Taghian Dinani , Nuwan Indika Millagaha Gedara , Xuan Xu , Emily Richards , Fiona Maunsell , Nader Zad , Lisa Ann Tell

分类：机器学习

2021-12-02

食品药物中的额外标签药物使用由美国动物药用药物使用澄清法（AMDUCA）授权，估计的戒断间隔基于已发表的科学药代动力学数据。偶尔会有一种缺乏基于戒断间隔或正在处理的大量动物的科学数据的缺乏，驱动需要测试药物残留物的需要。快速测定商业农场侧测试对于监测动物产品中的药物残留物来保护人类健康至关重要。已经在制造商的网站上报告了用于商业快速测定测试的活性成分，灵敏度，矩阵和物种，或者在消费者可用的PDF文件中，但可能需要特殊访问请求。此外，该信息并不总是与FDA批准的公差相关联。此外，这些测试的参数变化可能非常具有挑战性，以定期识别，特别是网站上列出的那些或未公开可用的文件。因此，人工智能在有效地提取数据并确保当前信息时发挥着关键作用。通过学术界和商业工具建设者研究了从PDF和HTML文件中提取表。在实施自然语言规划方面，这些文件的文本挖掘研究已成为一个广泛但挑战的竞技场。然而，提取表的技术仍在他们的初期，并由研究人员调查和改进。在本研究中，我们开发并评估了数据挖掘方法，用于自动从电子文档中提取快速测定数据。我们的自动电子数据提取方法包括软件包模块，开发的模式识别工具和数据挖掘发动机。测定细节由几个生产这些快速药物残留测定的商业实体提供

translated by 谷歌翻译